Дослідження та моделювання марківського процесу прийняття рішень (Markov Decision Process, MDP)

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
О
Факультет:
Не вказано
Кафедра:
Кафедра ЕОМ

Інформація про роботу

Рік:
2015
Тип роботи:
Звіт до лабораторної роботи
Предмет:
Інтелектуальні системи

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА» Кафедра ЕОМ ЗВІТ до лабораторної роботи №5 на тему: «Дослідження та моделювання марківського процесу прийняття рішень (Markov Decision Process, MDP)» з дисципліни: «Теорія інтелектуальних систем» Львів – 2015 Мета роботи: Дослідити модель марківського процесу прийняття рішень (Markov Decision Process, MDP). Хід роботи: 1. Реалізувати модель взаємодії агента з середовищем у вигляді марківського процесу прийняття рішень (кількість доступних агенту дій обрати згідно варіанту). Модель оптимальної поведінки (цільова функція): сумарний виграш з відступаючим горизонтом (receding-horizon model). Номер варіанту: N Кількість станів MDP Кількість доступних агенту дій  5 3 3   2. Текст програми обчислювального експерименту: #include <stdio.h> #include <stdlib.h> #include <time.h> #include <tchar.h> #include <math.h> #define ENVTYPE 1 #define NACTIONS 3 #define NSTATES 3 #define NSTEPS 500 #define NREPLICAS 1 #define REWARD 10//+1 #define PENALTY 0//-1 #define RLTYPE 5 //3 //4 #define RLEPSILON 0.1f #define RLTAU 0.12f #define TDALFA 0.3f #define TDGAMMA 0.1f #define QLALFA 0.5f #define QLGAMMA 0.1f // ---------------------------------------------------------------------------- // global parameters and values int t; // current time step int T = NSTEPS; // number of time steps = number of interactions between agent and environment int n = NREPLICAS; // number of replicas int nA = NACTIONS; // number of actions int nS = NSTATES; // number of states // ---------------------------------------------------------------------------- // environment int env = ENVTYPE; // type of environment: // env = 0 -> se (stationary environment) // env = 1 -> mdp float sePa[NACTIONS]; // se: probabilities of rewards for each action int ceState; // ce: current state of commutative environment float cePa[NSTATES][NACTIONS]; // ce: probabilities of reward for each action for each state of environment float cePs[NSTATES][NSTATES]; // ce: probabilities of transition from one state to another int mdpState; int mdpR[NSTATES][NACTIONS]; float mdpT[NSTATES][NACTIONS][NSTATES]; float Qsa[NSTATES][NACTIONS]; // ---------------------------------------------------------------------------- // agent int agt; // type of agent: // agt = 0 -> random agent // agt = 1 -> perfect agent // agt = 2 -> greedy RL // agt = 3 -> epsilon-greedy RL // agt = 4 -> softmax action selection // agt = 5 -> TD(0) // agt = 6 -> Q-learning int action=0; // current action = {0, ... ,(nA-1)} int response; // current response of environment = {0;1}/{-1;+1} int paction[NSTATES]; // actions of perfect agent (per state) (MDP) float gammaVI = 0.1f; // learning rate for value iteration (MDP) float e = RLEPSILON; // epsilon value (epsilon-greedy RL) float tau = RLTAU; // tau value (softmax action selection) float k[NSTATES][NACTIONS]; // number of realizations for each action float r[NSTATES][NACTIONS]; // total reward for each action float Q[NSTATES][NACTIONS]; // estimated action value Q[i]=r[i]/k[i] for each action; float p[NACTIONS]; // selection probability for each action (softmax); int mdpPrevState; // previous state of MDP float AHCresponse; // current response of Adaptive Heuristic Critic (for TD(0)) // ---------------------------------------------------------------------------- // results for current replica float sumR; // total reward over time sumR(t) float avrR; // average reward over time avrR(t) = sumR(t)/t // ---------------------------------------------------------------------------- // tabulated results float _sumR[NSTEPS][NREPLICAS]; float _avrR[NSTEPS][NREPLICAS]; // ---------------------------------------------------------------------------- // final simulation results float sumRm[NSTEPS]; // mean va...
Антиботан аватар за замовчуванням

03.12.2015 14:12

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини